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Хранилище для Почты 


Могилин Виктор 
Руководитель группы разработки стораджей в Почте МаН.ги 
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у Входящие 1 


3 Социальные сети 
Рассылки 
@ Новости 
(® Письма себе 
Отправленные 
Е Черновики 
С Спам 


17 Корзина Очистить 


+ Новая папка 


© Почта Май.ги 


РАССЫЛКИ 


. Почта Май.ги 
© Почта Май.ги 
© Почта Май.ги 
© Почта Май.ги 
© Почта Май.ги 
© Почта Май.ги 
© Почта Май.ги 
© Почта Май.ги 


Меняем Почту вместе Е] Помогите сделать Почту Май.ги лучше. Пройдите короткий опрос Помогите сделать Почту Май.т.. 


Облако Май.ги 


Полезные сервисы МайЙ.ги Советы от команды. Полезные сервисы Май.ги Это последнее письмо о том, как с комфортом ... 


Секретные возможности Почты Советы от команды. Секретные возможности Почты Это шестое письмо о том, как с комфо 


Контролируйте рассылки Чтобы держать почту в чистоте. Как держать почту в чистоте Это пятое письмо о том, как с комф... 


Фильтры и папки — настройте почту под себя Как сортировать письма. Как сортировать письма Это четвертое письмо о то 


Как защитить аккаунт Советы от команды. Как защитить аккаунт Это третье письмо о том, как с комфортом работать в Поч... 


Темы, колонки и компактный режим Как настроить внешний вид Почты на компьютере. Как настроить интерфейс Почты Эт... 


Попробуйте приложение Май.ги С полезными сервисами для ваших дел. Суперпочта на ваш смартфон Это первое письмо... 


Добро пожаловать в Май.ги! Давайте настроим ваш профиль. Рады видеть вас в Почте! Чтобы вы быстрее освоились, мы ... 


Егош: <У.тоа111п@согр.та11.га> 

То: <\.шод1111п@согр.та11.гиа> 

бир]есе: Не11о 

Пафе: Тае, 25 Чап 2022 23:04:21 +0300 


Не]1\]о мог1а 


*стандарты г+с-822, Г+с-2822, гфс-5322 


Проблема: вертикальное масштабирование 


Вложения: ЗТВ 
Письма + индексы: 1ТВ 


Предел: диски 4ТВ /З{огаде/изег1 
- МОЕХ 
- ЕЕЕЛ 
- РЕЕ? 


/З4огаде/изег2 
- МОЕХ 

- РЬЕЛ 

- РЕ? 


1опё 10опё ао... 


|ОРЗ 


Диски растут по объему, но не растут по ТОР$ -( 


Вапаот ТО: 
- обновление индексов, запись новых файлов 


Чтение: 
- а1гесфогу тефадафа + 1оа 1по4е + геаа +11е 
- фрагментация, т.к. есть удаления 


*ТОР$ - количество элементарных операций ввода-вывода в секунду 


Задача: на порядок сократить число серверов 


^ЗК > -300 


*маленькие диски - много серверов 


\Мо1 ите КР$ Титифаб]1е 


Мета 2РВ ЗМ нет 
МЕЗЗАЕ | 15 РВ [212] 4 да 
АЕКасв | 50РВ -» З5РВ ЗК да 


*задача по хранению почтовых вложений -— доклад от Андрея Сумина 


Решение: выносим письмо на другой диск 


/З{огаде/изег1 


- МОЕХ 
МЕЗЗАСЕ$ 


/З+огаде/изег2 
- МОЕХ 


НОО \у$ М\УМЕ: 15РВ данных 


Всего Примечание Количество серверов 
МУМЕ $2.5М 8Т6 ММЕ - $1200 150 
но $450К 1876 НОО - $500 12 


1 сервер: - 72 диска (12 + $АТА-полка на 60 дисков) 


Стратегия 


- Письмо - не модифицируется 
- Письмо - это ВЕОВ! 


Объектное хранилище - минимальный ТО для доступа к данным 


герто: собственное В1ОВ-хранилище 


- СЕТ $ТАТУ$$ЕК\/СЕ 
- РИТ 
- ОЕТЕТЕ 


ВОСКЕТЗЕВ\СЕ 


*рискеф - он же 1таёе, он же уо]1ите 


биске{: физический уровень 


- Бискеф - это файл 
- аррепЯ оп]1у 
- Ра11осафе (268) 


фа]]оса*е: 


- непрерывная последовательность блоков 
- гарантирует, что место не закончится «посередине записи» 


биске* 


НЕАБЕК КЕСОВО 1 ВЕСОВО 2 КЕСОВО 3 


фуре ВискефЕ11е $%гис* { 
сотрас*\Мег$1оп — ф1тезфатр 
Ла5{Вемг1{е {1тезТатр 


гесога 


РАСЕ 1 РАСЕ 2 РАСЕЗ 


фуре КесогЧНеадег $%гис* { 


Весогато 
517е 


Рафа$17е 


Туре 
Епсоа1п8 


41132 
и1п*32 
41132 
ВесогаТуре 
1118 


// Тог сотргез5е4 дата 
// АБО, БЕЁ, ЕОЕ, ... 
77 т 


риске{: Кесога!о и версия 


НЕАБЕК ВКЕСОВО 1 ВЕСОВО 2 


Весога!0=100 Весога!О=200 \ег$!юоп=300 


*бакет «закрывается» на запись, когда его уег$1оп > 268 


разе 


*проверяем сгс на каждом чтении и периодически 


Биске{жеглсе 


- геаа 
- мг е 


ВУСКЕТЗЕК\М!СЕ 


ВОСКЕТ 1 


ВУОСКЕТ 2 


Бискет5егмусе 


1 = 1 


диск БисКефзегутсе 


В$К\:8080 В$К\/:8081 В$К\/:8082 


НОО 


бискесотрасеог 


- сгс среск 
- создание бакетов 


В$К\/:8080 


В$К\:8081 


В$К\:8082 


ВУСКЕТСОМРАСТОК 
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фафи$еглсе 


ЗТАТУЗЗЕК\!СЕ 


В$К\:8080 —В$К\:8081 —В$К\У:8082 


ВУСКЕТСОМРАСТОК 


В$К\:8080 —В$К\:8081 В$К\:8082 


ВУСКЕТСОМРАСТОК 
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ати$5егмсе: т-тетогу-индекс бакетов 


Биске{1={ 


умег$1оп: 
адааге<$° : 


$<фафиз: 


}, 


Биске{2={ 


мег$1оп: 
аааге$° : 


<фафи$: 


100, 
Тр: роге, 
Пеа1{Пу 


200, 
1р:рогт, 
Бгокеп 
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фафи$егусе 


АРТ: 


- найти БискКее по ТО 
- выдать БискКеф для записи 


Ма1п{епапсе: 


- поддерживает в кластере >= М№ доступных мг1{аб1е-бакетов 
- планирует сверки контрольных сумм 


|ОРЪ: за счет чего уменьшается |0 


Размер бакета 2068: 
- уменьшается мефадафа оуегНеаЯ (мало файлов на диске) 
- ех{4/хР5 - оптимизации на больших файлах (ехфеп{ {гее) 


фа] ]осате: 
- меньше проблем с фрагментацией (блоки последовательно) 


Итого: 
- ие - (в идеале) 100МБ/сек 
- геаа - один ТО 


Надежность хранения 


Способность не терять данные в случае выхода из строя диска 
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Репликация 


Физический уровень (БисКеф5егу1се): 
- файл 
- ЕОЕ 


Логический уровень ($Фафи$5егу1се): 
- Вискеето 
- набор реплик для бакета 


Создание Бискет: гер!са{оп Тастог х2 


ЗТАТУЗ$ЗЕК\!СЕ 


Вискейр = 42 


ВУСКЕТСОМРАСТОК ВУСКЕТСОМРАСТОК 
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фати$егмсе: индекс бакетов 


42={ 
уег$1оп: @, 
ааге$$з: [1р1:8081, 1р2:8082], 
$фафи$: Пеа1]Пу 


герфоргоху при запросе бакета на запись получает набор адресов 
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герИсайоп Тасог 


Х1.5 


гер|сайоп Тастог х1.5 


ЗТАТУЗЗЕВ\МСЕ 


Вискепро = 42 


ВОСКЕТ В 


*егазиге сот? 


Виске!ро = 42 Вискепо = 42 


ВУСКЕТ Ш ВОСКЕТ Ш 
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гер|сайоп Тастог х1.5 


*«полторирование» 
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Надежность 


- репликация 
- СГС 
- 1х “сломанных” бакетов 


Доступность 


Возможность чтения/записи при потере ОС 


2 уровня: 
- °<фаеи$егутсе 
- бакеты 


ЗТафи$5егмсе: схема шардирования 


0С1 0С2 ОСЗ 
ЗТАТУ$ЗЕК\У!СЕ ЗТАТУ$ЗЕК\!СЕ ЗТАТУ$ЗЕК\М!СЕ 


ВО%3 = 0 ВО%3 = 1 ВО%3 = 2 


ы9=3 ыа=1 ыЧ=2 
ы4=6 ы9=4 ы9=5 
ы9=9 ы9=7 ы9=8 


*та{ег для «своих» бакетов 


Зфати$5егмсе зсЛета 


0С1 0С2 0С3 
дгоир1 [Р1:роц1 |Р2:роц2 
дгоир1 |РЗ:ромЗ |Р4:ром4 
дгоир1 |Р5:роц5 |Рб:роцб 


*админы добавляют группами 
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х2в30С 


Группа — 6 Дисков 


х2в30С 


1/3 доступно на запись 


Группа — 15 дисков 


хЗв50С. 


- 2/5 доступно на запись 


| рагоп$ 


|о2!са 


Пары - это 


РОТ 


ГОСК 
СЕРТОРКОХУ > ЗТАТУЗЗЕВМСЕЛ 


ВЮ = 15 
АСг \МЕКЗОМ = 100 
|Р1:РОКТ1 
|Р2:РОБТ2 


ВО = 15, УЕКЗЮМ = 100, АТА 
ТО — ВТО + Весога ТО ВОСКЕТЗЕВ\СЕ 1 
МЕКЗЮМ = 200 
ВЮ = 15, УЕКЗОМ = 100, ВАТА 
| ВИСКЕТЗЕВМСЕ 2 
МЕКЗЮОМ = 200 


ОМЕОСК, УЕВЗЮМ = 200 


(“= ЗАТ ЗЕВМСЕ1 
ОК 42 


герто: ограничение Бу Чез!еп 


ТО = ВТО + Кесогато, т.е. 2^64 байт (16 эксабайт) 


всего в почте 15РВ, так что пока не переживаем ;) 


Рго$: 


- ГерфотТО - число, которое можно кодировать 
- не нужны индексы 
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СЕТ 


ЗТАТО$ЗЕК\МСЕЗ | 


ВОСКЕТЗЕВМ!СЕ 1 

| ОАТА 

УПИ ВЮ = 15, В!0=100 

ры ыы ВОСКЕТЗЕВМСЕ 2 
ОАТА 


|Р1:РОКТ1 
|Р2:РОВТ2 


ВО = 15, КО=100 
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ОЕЕЕТЕ 


НЕАБЕК ВЕСОКО 1 | КЕСОКО 2 | КЕСОКОЗ | ВЕЁТ | ОЕЁ2 


- записывается в конец даже закрытого бакета 
- 1оскК на конкретный БискКеф 


ОЕТЕТЕ: после компакта 


НЕАОЕК ОЕЁ 1МОЕХ ВЕСОВО 3 ЕОР 


ОЕЁ ТМОЕХ: г1а —› о|5е* 


*могут быть Фоге1п ае1ефе”ы 
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Компакты 


$<фафти$5егу1се запускает компакт: 
- превышен порог удалений (получает от БисКеф5егу1се) 
- по времени (в том числе сверка сгс) 


Доступность 


- построение кластера в соответствии со схемой в разных ОС 
- ретраи (в том числе с перебором ОС) 
- Тоге1еп ае1ефе 


гертос|: управление кластером 


- схема групп для $Фафи$5егу1се 
- схема шардирования $Фафи$5егу1се 


герфос{1 томе 1п 565$г\1,Б65г\у2: 
- выровнять нагрузку на новых серверах 
- масштабирование 


*415$К_изаве по кластеру = фофа1/и5е на каждом БисКефзегутсе 
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гертос| БискЕ5 


9гоир 

9гоир1 
9гоир1 
9гоир1 
9гоур1 
9гоир1 
д9гоур1 
д9гоур1 
дгоир1 


БисКе1{ 
519 зтати$ 


1 


ро юы 


Бгокей 


Ьгокеп 


мг1 фа \е мег$1лоп 


фа15е 4624 
фа15е 4624 
4252 
4252 

(5) 

0 
{а15е 0 
фа1зе 0 


туре 
гед 
гед 
гед 
гед 
гед 
гед 
гед 
гед 


БисКе{ $1а1$ 


сошрастф 
111 359$ 
1137$ 
1т345 
]1т37$ 
1137$ 
1134$ 
111 4т0$ 
]1т34$ 


5ееп 
325 
325 
БУ 
325 
325 
325 
325 
325 


де! $ 


оФофФофФооосеос 


Фаешоп 1пФо 

4с 91гесфогу 
/4тр/герфо/91$К1 
/&тр/герфо/91$К2 
/4тр/герфо/91$КЗ 
/&тр/герфо/91$К4 
/&тр/герфо/91$КЗ 
/&тр/герфо/91$К4 
/&тр/герфо/91$К1 
/&тр/герфо/91$К2 
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гертосй зспеаше --Их 


9гоир 

9гоир1 
9гоир1 
9гоир1 
9гоур1 
9гоир1 
9гоир1 
9гоир1 
9гоир1 


Бискет 


Ь19 


р роофьъьн- 


$Тати$ 


| 


| 
| 
| 
# 
| 
| 
| 


мг а Те 


=+ нь 


уег$1оп 
4624 
4624 
4252 
4252 


офФФ<Фо 


туре 
гед 
гед 
гед 
гед 
гед 
гед 
гед 
гед 


БисКе{ $1а1$ 


сошрас1 


20. 
.55 
.55 
.55 
.55 
.55 
*- 
.55 
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де! $ 


оФфФ<ф<фоо>ео 


даемоп 1пФо 

4с 91гестогу 
/4тр/герфо/91$К1 
/5тр/герфо/91$К2 
/&тр/герфо/91$КЗ 
/Хтр/герфо/91$К4 
/&тр/герфо/91$КЗ 
/5тр/герфо/91$К4 
/&тр/герфо/91$К1 
/хтр/герфо/91$К2 


{гее 
2968 
2968 
2968 
2968 
2968 
2968 
2968 
2968 
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со$+ еМес\епе$$ 


1 сервер 


12 60 


дисков на одной 


А 5АТА-полке 


- 18ТВ диски 
- 12ТВ вложения + 6ТВ письма 
- 20-40 ТОР$ рег 41$с 
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Избыточность и сжатие 


15РВ —> х2 —› 3З0РВ 
30РВ —› 75та — 15РВ 


Итоги 


- ВЕОВ - это не только фото 

- доступность (чтение и запись при потере ОС) 
надежность (разные схемы репликации) 
эффективность хранения 


Исходная задача (уменьшение числа серверов): 
- унесли письма, разгрузили индексы 

- сократили число серверов ЗК -— 1.5К 

- продолжили работу по оптимизации хранения 


индексов 


Используем 


- облако -— 80 РВ, х1.5 
- сниппеты для поиска по почте -— 2.4 РВ, х2 
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Показатели 


Кластер с письмами: 
- маленькие объекты (-409КВ) 
- СЕТ аус: 19 тес 
- СЕТ рсф90: 30 тзес 


Облачный кластер х1.5: 
- большие объекты (>1МВ) 
- СЕТ ауё геаа: 500 т5ес 
- СЕТ рсф9@ геаа: 2 $ес 


Точки роста 


Ручные операции: 


- томе 1п 
- 1х 
Вапаот ТО: 


- если много удалений 


Гибридная схема репликации: 
- хз > х2 > х1.5 


*ептегрг15е? 


Доклад Андрея Сумина про хранения почтовых вложений 


(© пай | проект 9 


Спасибо за внимание! 


Могилин Виктор 
Руководитель группы разработки стораджей в Почте Май.ги 
м.тоёЙт @согр.тай.ги 
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